Appearance
《Python数据科学 - 技术详解与商业实践》学习笔记
写在前面
- 书籍介绍:暂无。
- 我的简评:暂无。
- !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦
第1章 数据科学家的武器库
1.1.数据科学的基本概念
数据科学目前使用最广泛的就是描述性数据分析和预测性数据分析
数据科学的整体目标就是在已有的数据集的基础上,通过特定的算法提取信息,并将其转化为可理解的知识,方便进一步探索使用
数据学是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;数据科学是为自然科学和社会科学研究一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界与人类的行为现象和规律
数据科学的工作范式:数据 -(维度分析)- 信息 -(建模分析)- 知识 -(业务目标)-决策和行动
基础客户标签是可以从原始数据直接获取的,比如性别、年龄段、职业。可以供决策使用的知识,也等价于信息和数据。统计标签是通过原始数据汇总得到的,等价于信息。
RFM模型:R最后一次消费时间,F一段时间内消费的频次,M一段时期内消费的总金额
与数据科学相关的知识涉及多个学科与领域,包括统计学、数据挖掘、模式识别、人工智能(机器学习)、数据库等
1.2.数据统计技术
数理统计分为频率和贝叶斯两大学派
目前针对统计推断,广泛存在两个误解:统计推断无用论;学习统计推断的产出/投入比低
1.3.数据挖掘的技术与方法
数据挖掘的方法分为描述性与预测性两种。描述类模型用于直观的反应历史状况,预测性模型从历史数据中找出规律,并用于预测未来
描述性数据挖掘也被称为模式识别,建模数据一般都具有多个属性和变量,属性用于描述各个观测的特征。
预测性数据分析的数据有明确的预测变量与相应的因变量
描述性数据挖掘用于描述现有的规律,常见的算法:聚类分析、关联规则分析、因子&主成分分析
预测性数据挖掘用于预测未来发生了什么,使用的模型和算法:线性回归、逻辑回归、神经元网络、决策树、支持向量机
1.4.描述性数据挖掘算法示例
1.聚类分析 - 客户细分:信用卡客户分群营销策略
2.关联规则分析:金融产品交叉销售或捆绑销售
1.5.预测性数据挖掘算法示例
1.决策树:候选相亲数据进行分类预测
2.KNN算法:预测某个男性的相亲成功率
3.Logistic回归:创建一种新人打分的评分机制
4.神经网络:得到精确的预测结果
5.支持向量机:划分开低维度下相亲成功与不成功的点
6.集成学习:通过七大姑八大姨集体讨论定出的人选往往是不会错的
7.预测类模型讲解:排序类分类器、决策类分类器
第2章 Python概述
2.1.Python概述
Python是面向对象、直译式的计算机编程语言
Python的主要应用分为网站开发、科学计算、图形用户界面GUI
在数据计算方面,Python的Scipy、Numpy、Pandas、Scikit-learn等框架也非常成熟
2.2.Anaconda Python的安装、使用
Anaconda Python是一款适合数据分析者的集成开发环境,包含了常用科学计算、数据分析、自然语言处理、绘图等包,所有的模块几乎都是最新的,容量适中
Anaconda集成了Python、IPython、Spyder和众多的框架与环境,且支持Python2和Python3,包括免费版、协作版、企业版等
Jupyter Notebook是一款Anaconda默认提供的一款交互式的开发环境,该环境既可以集成Python,同时也可以集成R
Spyder是Anaconda提供的一款类似于MATLAB、Rstudio界面的Python开发环境,其提供了语法着色、语法检查、运行调试、自动补全功能,集成脚本编辑器、控制台、对象查看器等模块,非常适合进行有关数据分析项目的开发工作
第3章 数据科学的Python编程基础
3.1.Python的基本数据类型
str字符串、float浮点数、int整数、bool布尔、complex复数
还有一些特殊的数据类型,例如无穷值、nan(非数值)、None等
3.2.Python的基本数据结构
- 列表list、元组tuple、集合set、字典dict
3.3.Python的程序控制
三种:顺承结构、分支结构、循环结构
pass语句一般是为了保持程序的完整性而座位占位符使用
列表、元祖、集合、字典都是可迭代对象,遍历简洁写法:i for i in 10
3.4.Python的函数与模块
设定了匿名函数lambda,简化了自定义函数定义的书写形式
Numpy提供了强大的多维数组、向量、稠密矩阵、稀疏矩阵等对象,支持线性代数、傅立叶变换等科学计算、提供了C/C++及Fortron代码的整合工具
3.5.Pandas读取结构化数据
- Pandas是一个基于Numpy开发的更高级的结构化数据分析工具,提供了Series、DataFrame、Panel等数据结构,可以方便的对序列、截面数据(二维表)、面板数据进行处理。
第4章 描述性统计分析与绘图
4.1.描述性统计进行数据探索
数据描述强调方法,即如何从现有的数据中获取得到主要的信息
数据探索强调过程,即通过数据描述的方法,对研究的客体有更深入的认识
变量的度量类型:名义变量,等级变量,连续变量
变量的分布类型是对时机变量分布的一个概括和抽象
描述连续变量的统计量主要有四类统计量,分别用于描述数据的集中趋势、离中趋势、偏态程度与尖峰程度
描述数据离散程度的常见指标有极差、方差和平均绝对偏差
偏度即数据分布的偏斜程度 ,峰度即数据分析的高矮程度
4.2.制作报表和统计制图
报表会展现数据的主要信息,其中分为维度(分类变量)指标和度量(连续变量)指标
盒须图也称为箱线图,能够提供某变量分布以及异常值的信息,其通过分位数来概括某变量的分布信息从而比较不同变量的分布
4.3.制图的步骤
制图分为以下四步:1、整理原始数据:对初始数据进行预处理和清洗,以达到制图的要求;2、明确表达的信息:根据初始可用数据,明确分析所要表达的信息;3、确定表达的类型:明确所要表达信息中对目标比较的类型;4、选择图表类型:选择合适的图表类型,进行绘制并进行展示。
统计图分为描述性统计图和检验性统计图,前者是对某些变量分布、趋势的描述,多出现在工作报告和统计报告中,后者是对特定统计检验和统计量的形象展示,仅出现在特定统计报告中
第5章 数据整合和数据清洗
5.1.数据整合
行列操作:选择单列、选择多列、创建删除列
条件查询:单条件、多条件、使用query
横向连接:内连接(merge)、外连接、行索引连接(concat、join)
纵向合并:concat用于完成横向和纵向合并
排序:sort_values、sort_index、sortlevel
分组汇总:group by 分组变量、汇总变量、汇总统计量、多重索引
拆分、堆叠列:pivot_table用于拆分列,melt用于完成堆叠列
赋值与条件赋值:replace、apply
5.2.数据清洗
重复值处理:duplicated和drop_duplicates
缺失值处理:fillna方法用于替换缺失值数据
噪声值处理:与其他数值相比差异较大的值,又称异常值、离群值。处理的方法,对于单变量常见的方法有盖帽法、分箱法;多变量的处理方法为聚类法
盖帽法:将某连续变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值;分箱法:通过考察数据的近邻来光滑有序数据的值;聚类法:将数据对象分组成为多个簇
5.3.RFM方法在客户行为分析上的应用
- 3个重要指标:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)
写在后面
- pdf书籍、笔记思维导图、资料打包下载地址:暂无
- 思维导图在线查看:[点击打开](/attachment/E.《Python数据科学 - 技术详解与商业实践》_常国珍等_201811.svg)
- 得到电子书地址:暂无